# 1、导入包
from pyspark import SparkConf, SparkContext

# 2、配置sparkConf对象
conf = SparkConf().setAppName('hello_jk213')
# 3、通过Sparkconf对象 去构造SparkContext对象
sc = SparkContext(conf=conf)

#要求 单词统计   words.txt文本

#1、读取把HDFS文件系统里的 words.txt文件
file_RDD = sc.textFile("hdfs://Hadoopvm1:8020/input/words.txt")

#2、对文件里的单词按空格进行切割
split_wordRDD = file_RDD.flatMap(lambda line: line.split(" "))
# #3、把结果转换成元组
wordRDD_1 = split_wordRDD.map(lambda x:(x,1))

# #4、统计单词
result_RDD = wordRDD_1.reduceByKey(lambda a,b:a+b)
# #5、通过collect方法收集RDD的数据打印输出结果
print(result_RDD.collect())